Stata论文复现:女性领导人当选是否有助于更多女性从政-RD
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会寒假班
作者:刘帅 (北京大学)
邮箱:liushuai.ccap@pku.edu.cn
编者按:本推文重在讲清楚下文如何利用 RDD 研究问题,并进行一系列检验操作。
Source:Baskaran T, Hessami Z. Does the election of a female leader clear the way for more women in politics?[J]. American Economic Journal: Economic Policy, 2018, 10(3): 95-121. -PDF- -Date-
目录
1. 概述
1.1 文章摘要
1.2 文章贡献
1.3 背景介绍
2. RDD 模型
3. 实证结果
3.1 回归前检验
3.2 基准回归
3.3 稳健性检验
3.4 机制检验
3.5 拓展研究
4. 注意事项
5. 相关推文
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
1. 概述
本文 (原文) 是 RDD 的一个优秀范文,作者提供了所有图表的数据和 Stata 程序,使得读者能够完美重现文中的结果。本推文侧重点在于结合原文来熟悉 RDD 的 Stata 命令,因此不再对 RDD 的基本知识进行赘述。本推文对于较快了解 RDD 并通过 Stata 实现具有较高的参考价值。本文作者的母语并非英语,其论文写作用词、语法、结构等也值得我们学习借鉴。
1.1 文章摘要
本文使用德国黑森州 (Hesse) 下辖的 426 个市 (municipalities) 在 2001、2006、2011、2016 四次选举中 109017 位候选人的数据,利用断点回归设计,研究了女性市长是否促进了女性议员候选人在议会选举中的表现。结果表明,当女性担任市长时,女性议员候选人能够获得更好的选举表现。这种效应还具有溢出效应,即提高了临近市的女性议员比例。其机制在于女性担任市长作为一个成功的女性政治表现,减少了对女性候选人的投票偏见。
1.2 文章贡献
在过去几十年,尽管女性参政取得了明显进步,但从全球来看女性参政人数仍偏少。为寻找有效增加女性参政人数的政策,首先需要明确女性参政人数为什么偏少。本文有三方面的贡献:
一是丰富了女性参政方面的文献。现有研究发现,女性在选举中的首次胜利能够引发女性未来的政治参与和成功。Bhalotra 等 (2018) 以印度国家立法机关选举为研究对象,发现女性当选立法委员能增加女性候选人的人数。本文则进一步着眼于女性领导对女性候选人在选举中的表现的影响,并且本文的研究设计能够分离出到女性领导的影响。
二是丰富了对旨在提高女性政治地位政策的效应研究。
三是丰富了德国女性参政相关研究。已有研究多集中在男性主导政治的国家,如印度、意大利,而在德国,女性参政是被鼓励的。本文以德国为研究对象,其结论可以推广到与德国相似的发达国家。
1.3 背景介绍
德国黑森州下辖 426 个市,每个市都选举市长 (mayor election) 和市议会议员 (council election)。市长的选举在议会选举之前,本文的基本思路就是如果女市长当选,女性候选人是否能够在接下来的议会选举中表现更佳? 市长的选举有两轮,第一轮所有的投票者给候选人投票,若没有人超过半数,则在得票数第一名和第二名之间进行第二轮选举,得票多者当选。
本文研究范围是第二轮竞争的异性竞争选举 (mixed-gender races)。当女性候选者票数多余男性候选者票数 (margin of victory,MOV,MOV 就是 RD 中的配置变量) 时,即 MOV > 0,意味着该市是女市长,则该市的所有议会议员候选人都进入处理组。
对于议会议员选举,议会选举前候选人是有最初排名 (initial rank) 的,选举之后则有最终排名 (final rank),某一个候选人排名前后的变化则可以反映出该候选人在选举中的表现。在本文中,女性议员的表现就是本文关注的被解释变量。
2. RDD 模型
本文运用了一个标准的精确 RDD,详见下式:
这是一个标准的 RDD 模型。被解释变量是指女性候选人在议员选举中排名提升程度。解释变量 female mayor 是虚拟变量,1 表示该市长为女性。vote margin 就是 RDD 中的配置变量,即市长选举中女性领先的票数,大于 0 表明女市长当选。 和 就是线性或多次多项式。
关于 RDD 带宽的选择,作者使用了 CCT 和 IK 两种方法,共 5 个模型。具体地,(1) 带宽为 CCT;(2) 带宽为 CCT/2;(3) 带宽为 2 倍的 CCT;(4) 带宽为 IK;(5) 带宽为 CCT,但回归加入了 vote margin 的二次项。
3. 实证结果
本推文一方面结合文中的汇报顺序,另一方面结合 RDD 的一些标准做法,逐一分析文中结果。
3.1 回归前检验
这部分没有在正文中汇报,而是在附件中。作者进行了以下检验:
第一,处理组和对照组的所在市的特征是否平衡 (balanced)。作者首先用 检验判断 “女市长组” 和 “男市长组” 在人口、面积、税收、就业等多方面 (这些统称为市特征,municipality characteristics) 是否存在差异,结果显示不存在差异。(对应文中 Table A.4)
这里用的比较简单的 ttest
命令。
更进一步,作者检验了这些市特征是否导致了女性候选人排名 (即本文的被解释变量) 提升出现断点。作者的做法是,用女性候选人排名作为被解释变量,各个市特征作为解释变量,用 OLS 回归构造了女性候选人排名的预测值 (predicted normalized rank improvements)。然后把预测值作为被解释变量对基础 RD 模型 (见上式) 进行回归。结果表明预测值没有出现明显断点,表明不是市特征造成的断点。(对应文中 Table A.5)
这里的 OLS 命令就很简单,但注意作者用的是 ivreg2
进行 OLS。只是命令的不同选择,但都是简单的 OLS。本文亲测,与 reg
命令的结果一模一样。
. * ivreg2 和 reg 结果对比
. lxhget baskaran2018.zip, replace // 下载论文复制数据集
. unzipfile baskaran2018.zip, replace
. use ./baskaran2018/datasets/main_dataset.dta, clear
. keep if rdd_sample==1
. keep if female==1
. ivreg2 gewinn_norm log_bevoelkerung log_flaeche log_debt_pc log_tottaxrev_pc ///
> log_gemeinde_beschaef_pc log_female_sh_gem_besch log_tot_beschaeft_pc ///
> log_female_share_totbesch log_prod_share_tot log_female_share_prod
Estimates efficient for homoskedasticity only
Statistics consistent for homoskedasticity only
Number of obs = 6403
F( 10, 6392) = 9.51
Prob > F = 0.0000
Total (centered) SS = 838996.9429 Centered R2 = 0.0147
Total (uncentered) SS = 839071.8636 Uncentered R2 = 0.0147
Residual SS = 826699.834 Root MSE = 11.36
-------------------------------------------------------------------------------------------
gewinn_norm | Coefficient Std. err. z P>|z| [95% conf. interval]
--------------------------+----------------------------------------------------------------
log_bevoelkerung | 1.792 0.260 6.88 0.000 1.282 2.302
log_flaeche | -0.646 0.279 -2.32 0.020 -1.193 -0.100
log_debt_pc | -0.086 0.174 -0.49 0.622 -0.428 0.256
log_tottaxrev_pc | -0.464 0.540 -0.86 0.390 -1.522 0.594
log_gemeinde_beschaef_pc | -0.789 0.585 -1.35 0.177 -1.935 0.357
log_female_sh_gem_besch | -1.176 0.572 -2.06 0.040 -2.297 -0.055
log_tot_beschaeft_pc | -0.774 0.419 -1.85 0.065 -1.595 0.047
log_female_share_totbesch | -0.638 1.183 -0.54 0.590 -2.956 1.681
log_prod_share_tot | 0.044 0.409 0.11 0.915 -0.758 0.845
log_female_share_prod | 0.535 0.609 0.88 0.380 -0.659 1.728
_cons | -21.353 4.520 -4.72 0.000 -30.213 -12.494
-------------------------------------------------------------------------------------------
Included instruments: log_bevoelkerung log_flaeche log_debt_pc log_tottaxrev_pc
log_gemeinde_beschaef_pc log_female_sh_gem_besch
log_tot_beschaeft_pc log_female_share_totbesch
log_prod_share_tot log_female_share_prod
------------------------------------------------------------------------------
. reg gewinn_norm log_bevoelkerung log_flaeche log_debt_pc log_tottaxrev_pc ///
> log_gemeinde_beschaef_pc log_female_sh_gem_besch log_tot_beschaeft_pc ///
> log_female_share_totbesch log_prod_share_tot log_female_share_prod
Source | SS df MS Number of obs = 6,403
-------------+---------------------------------- F(10, 6392) = 9.51
Model | 12297.1089 10 1229.71089 Prob > F = 0.0000
Residual | 826699.834 6,392 129.333516 R-squared = 0.0147
-------------+---------------------------------- Adj R-squared = 0.0131
Total | 838996.943 6,402 131.052318 Root MSE = 11.372
-------------------------------------------------------------------------------------------
gewinn_norm | Coefficient Std. err. t P>|t| [95% conf. interval]
--------------------------+----------------------------------------------------------------
log_bevoelkerung | 1.792 0.261 6.88 0.000 1.281 2.303
log_flaeche | -0.646 0.279 -2.32 0.021 -1.193 -0.100
log_debt_pc | -0.086 0.174 -0.49 0.622 -0.428 0.256
log_tottaxrev_pc | -0.464 0.540 -0.86 0.391 -1.524 0.596
log_gemeinde_beschaef_pc | -0.789 0.585 -1.35 0.178 -1.937 0.358
log_female_sh_gem_besch | -1.176 0.573 -2.05 0.040 -2.299 -0.054
log_tot_beschaeft_pc | -0.774 0.419 -1.85 0.065 -1.596 0.048
log_female_share_totbesch | -0.638 1.184 -0.54 0.590 -2.958 1.683
log_prod_share_tot | 0.044 0.409 0.11 0.915 -0.759 0.846
log_female_share_prod | 0.535 0.610 0.88 0.381 -0.661 1.730
_cons | -21.353 4.524 -4.72 0.000 -30.222 -12.485
-------------------------------------------------------------------------------------------
第二,不同的党派对于性别具有不同的偏好,如女性市长候选人往往来自左翼党派。作者用 检验分析了各个党派对待男女市长的态度,发现并没有明显差异。(对应文中 Table A.7)
第三,配置变量是否有断点。这也是 RDD 中的一个常规操作。本文的配置变量是市长选举中女性领先的票数,大于 0 表明女市长当选。作者通过画图表明,配置变量没有断点。
这里用的是 DCdensity
命令。
3.2 基准回归
在进行了有效性检验之后,作者对基础模型进行了回归。首先是画图 (Figure 2),其次是回归结果 (Table 2)。从图可以看出,在断点附件跳跃是明显的。同时回归结果也是显著的,女性市长能够提高女性候选人的名次 3.7 个 (每 100 个议员席位)。
. net install st0366.pkg, replace // 安装 rdrobust 2014 版本, 最新版本为 rdrobust 2017
. adopath + ./baskaran2018/ado_files // 设置作者自己编写命令路径
. bandwidth_and_weights, depvar(gewinn_norm) var(margin_1) bwmethod(CCT) kernel(tri) degree(1)
. ivreg2 gewinn_norm female_mayor margin_1 inter_1 if abs(margin_1)<$bw_opt [pw=weight], ///
> r cluster(gkz ) partial(margin_1 inter_1 )
Estimates efficient for homoskedasticity only
Statistics robust to heteroskedasticity and clustering on gkz
Number of clusters (gkz) = 56 Number of obs = 2878
F( 1, 55) = 14.35
Prob > F = 0.0004
Total (centered) SS = 336238.1954 Centered R2 = 0.0077
Total (uncentered) SS = 336238.1954 Uncentered R2 = 0.0077
Residual SS = 333662.2387 Root MSE = 10.77
------------------------------------------------------------------------------
| Robust
gewinn_norm | Coefficient std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
female_mayor | 3.712 0.971 3.82 0.000 1.810 5.614
------------------------------------------------------------------------------
Included instruments: female_mayor
Partialled-out: margin_1 inter_1 _cons
nb: total SS, model F and R2s are after partialling-out;
any small-sample adjustments include partialled-out
variables in regressor count K
------------------------------------------------------------------------------
作者还把另外一个结果作为基准回归,即把所有候选人都包括进来,将被解释变量换成女性候选人是否当选为意愿的虚拟变量 (Table 3)。此时结果显示女性市长当选提高了议会中女性议员比例 4%。不过这里需要特别指出的是,这个回归显著性较低。作者也给出了解释,他们认为断点回归仅仅是检验的在断点附近的比较少的样本,这可能导致结果统计意义不显著。
对于两个基准回归,作者使用的的 ivreg2
命令。在带宽的选择上,用的是 rdrobust
命令。
3.3 稳健性检验
作者随后进行了两个稳健性检验:一是安慰剂检验 (Placebo Test)。在基础回归中,是女市长当选在前,议会选举在后。那么女市长当选是否对上一次选举中女性候选人的表现有影响呢?结果显示,系数非常小而且不显著,甚至在某些带宽下是负值。(Table A.8)
二是变换替代指标。在基础回归中,被解释变量是标准化了的名次提升。在稳健性检验中,作者用了两个替换指标:(1) 名次提升的原始值 (raw rank improvement) 而不是标准化值。(2) 提升的虚拟变量,即若名次提升取 1,没有提升取 0。(Table A.5)
3.4 机制检验
基础回归的结果表明,女市长这一事件能够提高女性候选人在议会选举中的名次,但还有其他因素也可能导致女性在选举中的表现。在机制检验部分,作者提出了多种其他可能提高女性候选人选举表现的机制,并通过实证分析对这些机制进行了否定,从而证明女性候选人在议会选举中的表现是由女市长导致的。
第一种机制是党派对女性的偏见。这种机制下有两个检验:(1) 女市长当选,可能使得党派在提名候选人时就使女性排名更靠前 (也可能更靠后)。结果表明,女市长当选没有使女性候选人的最初排名更好或者更坏,从而否定了这种机制。(2) 女性市长当选也可能提高女性在党内候选人中的比例。如果在党内推选的候选人中女性比例增加,则使得投票者更可能给女性投票,最终提高女性的选举名次。作者回归表明,女性市长并没有对党内选举的性别造成明显影响。
第二种机制是女市长当选可能对参加议会选举的候选人的特征有所影响。比如,女市长当选可能会促进女性律师等女权意识强的人参加选举。为此,作者先对候选人特征 (candidate characteristics) 进行了 RDD,发现女性市长能够提高女律师候选人,减少女性自由职业者候选人,提高男建筑工作者、商人、律师候选人,减少男教师候选人。
由此可见,女市长确实对候选人的特征有所影响。所以,作者用了前文 “预测值” 法,用候选人特征 (年龄、教育水平、职业等) 作为解释变量,通过 OLS 回归构造了候选人名次提升的预测值。然后用该预测值进行了基础回归,发现影响确实显著,但最大值为0.5。这与基础回归的 3.7 相比,候选人特征的改变不能作为女性选举名次提升的主要原因。
第三种机制是投票者的投票偏见。当女市长当选时,投票者可能倾向于降低女性偏见,从而提高对女性的投票可能。由于数据的限制,无法得到投票人的性别组成等数据,所以作者使用对投票率进行了检验,即检验女市长当选是否影响了该地区议会选举的投票率。结果发现,投票率是降低的 (但不显著),以此可以间接说明,投票这一渠道不能影响基础结果。
3.5 拓展研究
一是在任 vs 非在任异质性影响。有的女性候选人上次选举中就是议员 (incumbent candidates),而有的是新候选人 (nonincumbent candidates)。研究发现,对女市长对女性候选人提升作用在新候选人中更明显。
二是溢出效应。女性市长当选对临近市的选举也有影响。结果表明,本市女市长当选能够平均提高临近市女性候选人名次提升 1.6 个名次 (每 100 个议员席位)。
三是研究结论的外延性。RDD 回归本质上局部线性回归,很多样本并不包括在回归中,所以本文的研究结论是否适用于其他样本呢?作者用 检验对比了男女竞争 (mixed-gender election) 组和单一性别竞争 (single-gender election) 组的特征,发现两者在政府规模、就业率、女性就业率方面具有明显差别。男女竞争 (mixed-gender election) 组的市具有更高的城市化水平,对女性参政更加开放。
4. 注意事项
作者在 RDD 中,主要用了 rdrobust
、DCdensity
、ivreg2
等这几个命令。但需要指出的是,作者并不是直接使用的 rdrobust
。作者使用该命令的目的是获得带宽,因此作者把这个命令融合到自己编写的一个 ado 文档里。但本质上还是使用的rdrobust
命令。
关于 rdrobust
命令,已有很多推文介绍过。但有一点需要注意,该命令是不断发展变化的。与 2014 年发布的命令相比,2017 年的命令在带宽选择上发生了变化。详细可参考以下文章和网页「RD Packages」。
Calonico S, Cattaneo M D, Titiunik R. Robust data-driven inference in the regression-discontinuity design[J]. The Stata Journal, 2014, 14(4): 909-946. -PDF- Calonico S, Cattaneo M D, Farrell M H, et al. rdrobust: Software for regression-discontinuity designs[J]. The Stata Journal, 2017, 17(2): 372-404. -PDF-
ivreg2
命令包含多种估计方法,既可以进行 OLS,也可以进行多种 IV 估计。当然,也可以用该命令进行空间计量的回归。本文则用于 RDD 的回归。
5. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh rdd, m
安装最新版lianxh
命令:
ssc install lianxh, replace
专题:专题课程
⏩ 因果推断专题-RDD-DID-IV-合成控制 专题:断点回归RDD
Stata:RDD-DID-断点回归与倍分法完美结合 RDD断点回归:多个断点多个分配变量如何处理 当PSM遇上RDD:rddsga命令详解 Stata+R:一文读懂精确断点回归-RDD RDD:离散变量可以作为断点回归的分配变量吗? rddensity, lpdensity无法安装?那就手动安装 RDD:断点回归可以加入控制变量吗? 断点回归RDD:样本少时如何做? Stata:断点回归分析-RDD-文献和命令 Stata:两本断点回归分析-RDD-易懂教程 Stata:RDD-中可以加入控制变量 Stata:时间断点回归RDD的几个要点 Stata:断点回归分析-(RDD)-文献和命令 Stata:断点回归RDD简明教程 RDD:断点回归的非参数估计及Stata实现 Stata: 两本断点回归分析 (RDD) 易懂教程 Stata: 断点回归 (RDD) 中的平滑性检验 Stata 新命令:多断点 RDD 分析 - rdmc RDD 最新进展:多断点 RDD、多分配变量 RDD 专题:内生性-因果推断
Abadie新作:简明IV,DID,RDD教程和综述
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下:连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。